看棋评学国象:英国科学家尝试另类AI棋类算法
让AI学会下棋、成为“棋类大师”,一直是人工智能领域广为研究的课题。
近日,来自伦敦大学学院的Kamlish等人公布了他们另辟蹊径的研究试验——SentiMate,一种采用自然语言处理方法,通过训练网络评论文字来学习国际象棋的算法。它通过分析棋类专家解说员的反应,对国际象棋招法质量进行评价。
在SentiMate之前,人工智能主要通过不断地对弈进行训练学习。2016年击败围棋世界冠军李世石的AlphaGo使用神经网络,与人类棋手的棋谱进行训练,学习如何下围棋。到了2018年,AlphaZero依靠深度神经网络、通用强化学习算法和蒙特卡洛树搜索,通过自我对弈进行强化学习。
AlphaZero参考阅读
与Alpha系列采用神经网络、自我训练的方法不同,SentiMate尝试了一条自然语言学习路径。该团队首先收集来自网络的2700条国际象棋对局评论文本,然后建立了一个分类器,该分类器能够在大量评论数据集中,提取描述国际象棋招法质量的评论。他们还在国际象棋评论数据的基础上,训练了一个情绪分析模型,分析人们通过语言所传递出的正向情绪来评估招法质量,从而指导机器人在棋局中的下一步行动。研究人员称,这两个模型都达到了90%以上的分类精度。在此基础上,他们提出了一个国际象棋引擎sentimate,它基于预先训练的情绪评估功能来评估棋弈招法。
让研究人员感到惊讶的是,SentiMate已有能力理解国际象棋的一些基本原则并能制定几个关键策略。《麻省理工科技评论》据此评价称,虽然SentiMate从未战胜过传统训练路径下的国际象棋机器人,很难被称作AlphaZero那样的“国际象棋大师”,但这个新路径展示了利用更少的对局数据、更低的计算需求,通过语言分析的方法来研究国际象棋游戏的前景。
“自然语言处理的下一步是将机器学习到的信息转变为切实的行动,来解决真实世界的任务”,研究人员对《麻省理工科技评论》表示,SentiMate所采用的学习技术还可以用来分析体育赛事,预测金融活动。“毕竟还有大量的书籍、博客和论文都在等待学习”。
(编注:改正了文中多处翻译错误)
相关阅读